State values

State-value Function 状态价值函数,衡量在给定策略下从某状态出发的长期优劣。

基本定义

对一个满足马尔可夫性质的 MDP,考虑时间步序列 t=0,1,2,,在时间步 t 智能体处于状态 St,按策略 π 选择动作 At,得到下一状态 St+1 和即时回报 Rt+1

StAtSt+1,Rt+1

St,St+1,At,Rt+1 都是随机变量。从 t 出发的状态-动作-回报轨迹为:

StAtSt+1,Rt+1At+1St+2,Rt+2At+2St+3,Rt+3

折扣回报(return)定义为:

GtRt+1+γRt+2+γ2Rt+3+

其中 γ(0,1) 是折扣率。Gt 是随机变量。随机变量

Since Gt is a random variable, we can calculate its expected value (also called the expectation or mean): 期望

vπ(s)E[Gt|St=s].

Here, vπ(s) is called the state-value function 状态价值函数 or simply the state value of s . Some important remarks are given below.

形式化定义(式 3.12):

vπ(s)Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s],sS

其中 Eπ[] 表示在策略 π 下的期望。终态的价值始终为零。

动作价值函数 qπ(s,a)

类似地,动作价值函数(action-value function)定义为在状态 s 采取动作 a 后、遵循策略 π 的期望回报:

qπ(s,a)Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]

vπqπ 的关系

状态价值是动作价值关于策略 π 的期望:

vπ(s)=aπ(as)qπ(s,a)

反之,动作价值可用状态价值和动力学函数表示:

qπ(s,a)=s,rp(s,rs,a)[r+γvπ(s)]

Bellman 方程的推导

将回报递推 Gt=Rt+1+γGt+1 代入 vπ 的定义(式 3.14 的完整推导):

vπ(s)Eπ[GtSt=s]=Eπ[Rt+1+γGt+1St=s](by (3.9))=aπ(a|s)srp(s,r|s,a)[r+γEπ[Gt+1St+1=s]]=aπ(a|s)s,rp(s,r|s,a)[r+γvπ(s)]

这就是 Bellman 方程。它将一个状态的价值表示为后继状态价值的递推关系,是 动态规划TD 学习MC 方法 的理论基础。

qπ 的 Bellman 方程为:

qπ(s,a)=s,rp(s,r|s,a)[r+γaπ(a|s)qπ(s,a)]

最优价值函数

最优状态价值函数 v最优动作价值函数 q 对应所有策略中能取得的最大期望回报:

v(s)maxπvπ(s),q(s,a)maxπqπ(s,a)

对给定的 MDP,vq 是唯一的,但最优策略可能有多个。vq 的关系:

v(s)=maxaq(s,a),q(s,a)=E[Rt+1+γv(St+1)St=s,At=a]

最优价值函数满足 Bellman 最优方程

v(s)=maxas,rp(s,r|s,a)[r+γv(s)]q(s,a)=s,rp(s,r|s,a)[r+γmaxaq(s,a)]

对有限 MDP,Bellman 最优方程有唯一解。任何关于 vq 的贪心策略都是最优策略。

与回报的关系

状态价值比回报更正式地用于评估策略:产生更大状态价值的策略更优。Bellman 方程 提供了计算状态价值的核心工具。

相关概念